home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 20 / Cream of the Crop 20 (Terry Blount) (1996).iso / faq / mthrbds.zip / MTHRBDS.TXT < prev   
Text File  |  1996-06-14  |  42KB  |  1,086 lines

  1.                   rev 15 faq EIDE controller flaws part 1 of 2
  2. From: roedy@BIX.com (Roedy Green)
  3. Newsgroups: comp.os.os2.bugs
  4. Subject: rev 15 faq EIDE controller flaws part 1 of 2
  5. Date: 1 Sep 1995 01:08:35 GMT
  6. Organization: Canadian Mind Products
  7. Lines: 545
  8. Message-ID: <425mej$hgo@news2.delphi.com>
  9. NNTP-Posting-Host: bix.com
  10. X-Newsreader: Galahad 1.1f
  11.  
  12. EIDE CONTROLLER FLAWS part 1 of 2
  13.  
  14. Revision 15: 1995 August 31
  15.  
  16. SUMMARY OF RECENT CHANGES
  17.  
  18. 1)   EIDEtest 1.5 and CDTest 1.0 released.
  19.  
  20. 2)   Yet another suspect EIDE controller chip: the SMC
  21.      37650.
  22.  
  23. 3)   Intel contradicts itself on the performance hit from
  24.      disabling prefetch to bypass the flaw.
  25.  
  26. 4)   Software from IBM and Intel to detect both faulty chips
  27.      directly.
  28.  
  29. 5)   The precise mechanism of failure for both the RZ-1000
  30.      and CMD 640B is now understood. The RZ-1000 and CMD 640B
  31.      both have the prefetch flaw. The CMD 640B has two additional
  32.      flaws.
  33.  
  34. 6)   Explanation of what "Intel Inside" means.
  35.  
  36. 7)   Dell offers upgrade BIOS to turn off the prefetch
  37.      buffers.
  38.  
  39. 8)   RZ-1000 flaw bypass for APAR PJ19409 for Warp now
  40.      available.
  41.  
  42. 9)   List of safe and unsafe operating system software.
  43.  
  44. 10)  IBM hardware is clean.
  45.  
  46. 11)  Stonewall rebuilds. Intel recants on offer to replace
  47.      defective motherboard.
  48.  
  49. 12)  Problem is showing up under Windows For WorkGroups in
  50.      32 bit mode.
  51.  
  52. 13)  Cleaning up past damage is very difficult.
  53.  
  54. 14)  Assigning blame.
  55.  
  56. 15)  The Triton chipset is immune. These chips are marked
  57.      with an FX suffix.
  58.  
  59. 16)  Windows-95, NT are immune.
  60.  
  61. 17)  DOS and Windows 3.1 are immune if you have an Intel
  62.      BIOS.
  63.  
  64. INTRODUCTION
  65.  
  66. There are serious flaws affecting about 1/3 of all PCI
  67. motherboards. The flaws affect any motherboard or EIDE
  68. controller paddleboard containing the PC-Tech RZ-1000 PCI
  69. EIDE controller chip or the CMD PCIO 640B PCI EIDE
  70. controller chip. There are preliminary reports of yet a
  71. third flawed chip -- the SMC 37650.
  72.  
  73. The flaws affect motherboards from ASUSTeK, AT&T, Dell,
  74. Gateway, Zeos and Intel. Since Intel makes so many of the
  75. motherboards sold under other brand names, the flaws affect
  76. many machines, both 486 and Pentium PCI.
  77.  
  78. The flaw shows up most frequently when you run a true
  79. multitasking operating system such as OS/2 Warp. It also
  80. shows up under Windows For WorkGroups in 32 bit mode during
  81. tape or floppy backup and restore. In theory the flaw could
  82. do damage under DOS, DESQview, Windows and Windows For
  83. WorkGroups in 16 bit mode, but so far there have been no
  84. damage reports. Recent versions of Microsoft NT and Windows-
  85. 95 contain code to bypass the flaw.
  86.  
  87. WHAT ARE THE SYMPTOMS?
  88.  
  89. When you are using an IDE or EIDE hard disk attached to the
  90. EIDE motherboard port, the flaw subtly corrupts your files
  91. by randomly changing bytes every once in a while. The flaw
  92. introduces bugs into EXE files, subtle errors into your
  93. spreadsheets, stray characters into your word processing
  94. documents, changes to the deductions in last year's tax
  95. return files, and random changes to engineering design
  96. files.
  97.  
  98. This corruption happens when you are simultaneously using
  99. your EIDE or IDE hard disk and some other device, most
  100. commonly the floppy drive or mag tape backup.
  101.  
  102. The same sorts of problem may occur on reading a CD-ROM
  103. drive attached to an EIDE port.
  104.  
  105. IS IT SERIOUS?
  106.  
  107. These flaws are nasty. They are causing hundreds of times
  108. more havoc than the infamous Pentium divide flaw ever did.
  109. "I am Pentium of Borg. You will be approximated."
  110.  
  111. Not only does this corruption occur, but it occurs quietly,
  112. often going unnoticed.
  113.  
  114. If the system crashes, you usually put the blame on the
  115. operating system software, or the application. It might
  116. actually be a faulty RZ-1000 or CMD 640B EIDE controller
  117. chip nailing you.
  118.  
  119. When a directory becomes corrupted, you may not notice it
  120. until the damage is irreparable. If a spreadsheet
  121. application reads a comma-delimited ASCII file, it may
  122. simply miss a few bytes in a number, an error that may go
  123. unnoticed, and that error could cascade through the rest of
  124. the spreadsheet.
  125.  
  126. If you have had unexplained crashes in OS/2, you have
  127. probably experienced the problem, and should make a thorough
  128. check for hidden corruption. Remember that the bug may only
  129. slightly alter your data, and the corruption may not be
  130. obvious.
  131.  
  132. Keep in mind that not every problem is the RZ-1000's or the
  133. CMD 640B's fault. Overheating, unrelated hardware faults and
  134. design flaws, or software bugs can cause similar symptoms.
  135. DMA channel conflicts also cause similar symptoms. Happily,
  136. EIDEtest and CDTest can unmask all manner of simultaneous
  137. I/O faults.
  138.  
  139. Unfortunately, correcting the problem just stops further
  140. file corruption. It will help to clean up the existing
  141. damage to your files. Right now, the focus is on bypassing
  142. the flaw. Preventing further corruption is child's play
  143. compared with the nightmare of trying to track down all the
  144. existing random errors in files. Backups even from day one
  145. may be corrupted. If you have the flaw, you will probably
  146. never be able to completely eliminate the effects of past
  147. corruption.
  148.  
  149. HOW DO YOU TELL IF YOU HAVE THE FLAW?
  150.  
  151. There are four categories of motherboard:
  152.  
  153. 1) Definitely safe. Motherboards may still have the flaw,
  154.   but all software in use bypasses it.
  155.  
  156. 2) Probably safe. In theory there could be problems, but
  157.   no one has reported any so far.
  158.  
  159. 3) Possibly dangerous. You will have to run EIDEtest,
  160.   CDtest, or IOTest to find out.
  161.  
  162. 4) Probably dangerous. You will still have to run the
  163.   tests to find out for sure.
  164.  
  165. Definitely Safe
  166.  
  167. Definitely safe includes older machines with ISA. EISA, VESA
  168. VL or MCA buses. The flaw only affects machines with the new
  169. PCI bus. PCI machines that use the new Triton chipset from
  170. Intel do not have the flaw.
  171.  
  172. PCI machines with Intel BIOSes that run only DOS, DESQview,
  173. Windows 3.1, Windows-95 or NT 3.5 are safe. If you have a
  174. non-Intel BIOS and run only DOS, DESQview, Windows 3.1,
  175. Windows-95 or NT 3.5 and never use the "fast mode"
  176. simultaneous disk I/O feature on floppy or tape
  177. backup/restore, you are safe.
  178.  
  179. You still might want to test your machine. There are similar
  180. problems with other causes the tests will unmask.
  181.  
  182. Probably Safe
  183.  
  184. If you have a non-Intel BIOS and run only DOS, DESQview,
  185. Windows 3.1, or Word For Windows in 16-bit disk access mode,
  186. you probably will not see the problem, even though you may
  187. have one of the faulty chips.
  188.  
  189. Possibly Dangerous
  190.  
  191. Most auxiliary chipsets (e.g., OPTI Viper, SMC, Mercury and
  192. Neptune) used on PCI motherboards do not include a built in
  193. EIDE controller.  Such motherboards use a separate EIDE
  194. controller chip -- often the flawed RZ-1000 or CMD 640B. If
  195. you use a separate EIDE paddleboard, it will likely use the
  196. one of the flawed chips. In theory, the flaw could affect
  197. DOS, Windows, and Windows For WorkGroups with 16 bit disk
  198. access during floppy/tape backup and restore, though no one
  199. has reported problems yet. Windows For WorkGroups with 32
  200. bit disk access is dangerous if you have the flaw.
  201.  
  202. Probably Dangerous
  203.  
  204. PCI Motherboards (both 486 and Pentium) with the older
  205. Mercury and Neptune chipsets are likely to have the flaw.
  206. The Mercury chipset was popular in P60 and P66 systems, and
  207. the Neptune in P70, P90 and P100 systems. Mercury chipsets
  208. are labelled with an MX suffix and Neptune with NX. If you
  209. are using NT 3.1, OS/2 Warp or Linux, you are likely to have
  210. already experienced extensive file corruption if the flaw is
  211. present.
  212.  
  213. TESTING FOR THE FLAW
  214.  
  215. Scot Llewelyn, one of the eight authors of
  216. PowerQuest's PartitionMagic, discovered the RZ-1000 flaw and
  217. made it public. Prior to that, only employees of PC-Tech,
  218. Intel and Microsoft were aware of how to bypass the flaw. In
  219. the process of tracking the RZ-1000 problem down, Internet
  220. comp.os.os2.bugs participants discovered a second flawed
  221. chip, the flawed CMD 640B, and are now suspicious about the
  222. SMC 37650.
  223.  
  224. Scot did most of the initial work documenting the RZ-1000
  225. flaw. He wrote a program called IOte